无监督学习


无监督学习(unsupervised learning):设计分类器时候,用于处理未被分类标记的样本集
目标是我们不告诉计算机怎么做,而是让它(计算机)自己去学习怎样做一些事情。非监督学习一般有两种思路。第一种思路是在指导Agent时不为其指定明确的分类,而是在成功时采用某种形式的激励制度。需要注意的是,这类训练通常会置于决策问题的框架里,因为它的目标不是产生一个分类系统,而是做出最大回报的决定。这种思路很好的概括了现实世界,Agent可以对那些正确的行为做出激励,并对其他的行为进行处罚。
强化学习的一些形式常常可以被用于非监督学习,由于没有必然的途径学习影响世界的那些行为的全部信息,因此Agent把它的行为建立在前一次奖惩的基础上。在某种意义上,所有的这些信息都是不必要的,因为通过学习激励函数,Agent不需要任何处理就可以清楚地知道要做什么,因为它(Agent)知道自己采取的每个动作确切的预期收益。对于防止为了计算每一种可能性而进行的大量计算,以及为此消耗的大量时间(即使所有世界状态的变迁概率都已知),这样的做法是非常有益的。另一方面,在尝试出错上,这也是一种非常耗费时间的学习。
不过这一类学习可能会非常强大,因为它假定没有事先分类的样本。在某些情况下,例如,我们的分类方法可能并非最佳选择。在这方面一个突出的例子是Backgammon(西洋双陆棋)游戏,有一系列计算机程序(例如neuro-gammon和TD-gammon)通过非监督学习自己一遍又一遍的玩这个游戏,变得比最强的人类棋手还要出色。这些程序发现的一些原则甚至令双陆棋专家都感到惊讶,并且它们比那些使用预分类样本训练的双陆棋程序工作得更出色。
一种次要的非监督学习类型称之为聚合(clustering)。这类学习类型的目标不是让效用函数最大化,而是找到训练数据中的近似点。聚合常常能发现那些与假设匹配的相当好的直观分类。例如,基于人口统计的聚合个体可能会在一个群体中形成一个富有的聚合,以及其他的贫穷的聚合。

围棋自动对弈程序

中文版的免费资源有天才围棋,发行于2006年,由UNBALANCE公司出品,玩家分黑方或是白方,不论是黑白都可以选择计算机或者人类玩家,就是说可以有四种情况:
  1. 人类持黑VS人类持白
  2. 计算机持黑VS计算机持白
  3. 人类持黑VS计算机持白
  4. 计算机持黑VS人类持白
当选择3,或4的时候是人机对弈,玩家操作人类角色,当选择1时你可以操作任一角色,和别人一起下棋,也可以自己同自己对弈,当选者2时,是你最无聊的时候,你想验证天才围棋的计算机玩家等级是否名副其实,例如选择3级与7级的进行比赛,看哪个能赢.
计算机玩家分为两大类共10个等级
初级1-5适合初学者与计算机玩家之间的对弈,
进阶级6-10级是高级玩家的游戏。
除了这些特点外,棋盘也分三种:
  1. 9 * 9
  2. 13 * 13
  3. 19 * 19